Audio Classification

The Best 347 Audio Classification Tools in 2025

A language identification model fine-tuned from Facebook's Massively Multilingual Speech project, supporting audio classification for 126 languages

Audio Classification

Transformers Supports Multiple Languages

Wav2vec2 Base Finetuned Speech Commands V0.02

This model is a voice command recognition model fine-tuned on the speech_commands dataset based on facebook/wav2vec2-base, achieving an accuracy of 97.59%.

Audio Classification

Whisper Medium Fleurs Lang Id

A speech language identification model fine-tuned on OpenAI Whisper-medium, achieving 88.05% accuracy on the FLEURS dataset

Audio Classification

Wav2vec2 Large Robust 12 Ft Emotion Msp Dim

This model is fine-tuned from Wav2Vec2-Large-Robust for speech emotion recognition, predicting values in three dimensions: arousal, dominance, and valence.

Audio Classification

Transformers English

Lang Id Voxlingua107 Ecapa

A speech language identification model based on the SpeechBrain framework and ECAPA-TDNN architecture, supporting recognition and speech embedding extraction for 107 languages.

Audio Classification Supports Multiple Languages

Ast Finetuned Audioset 10 10 0.4593

The Audio Spectrogram Transformer (AST) is a model fine-tuned on AudioSet, which converts audio into spectrograms and applies a vision transformer for audio classification.

Audio Classification

Whisper Small Ft Common Language Id

A general language identification model fine-tuned based on openai/whisper-small, achieving 88.6% accuracy on the evaluation dataset

Audio Classification

Emotion Recognition Wav2vec2 IEMOCAP

Speech emotion recognition using fine-tuned wav2vec2 model, trained on IEMOCAP dataset

Audio Classification English

Ast Finetuned Audioset 14 14 0.443

An audio spectrogram transformer fine-tuned on the AudioSet dataset, which converts audio into spectrograms and processes them using a vision transformer architecture, achieving excellent performance in audio classification tasks.

Audio Classification

Wav2vec2 Large Xlsr 53 Gender Recognition Librispeech

Gender recognition model fine-tuned on Librispeech-clean-100 dataset, achieving an F1 score of 0.9993 on the test set

Audio Classification

Wav2vec English Speech Emotion Recognition

English speech emotion recognition model fine-tuned based on Wav2Vec 2.0, capable of recognizing 7 different emotions

Audio Classification

Hubert Large Speech Emotion Recognition Russian Dusha Finetuned

This model is a Russian speech emotion recognition model fine-tuned on the HuBERT architecture, trained on the DUSHA dataset, capable of identifying emotional states such as neutral, anger, positivity, and sadness.

Audio Classification

Transformers Other

MERT-v1-330M is an advanced music understanding model trained based on the MLM paradigm, with 330M parameters, supporting a 24K Hz audio sampling rate and 75 Hz feature rate, suitable for various music information retrieval tasks.

Audio Classification

Audiobox Aesthetics

Unified automatic quality assessment model for speech, music, and sound

Audio Classification

This is a speech language identification model based on the Wav2Vec2 architecture, capable of recognizing 256 languages, and is part of Facebook's Massively Multilingual Speech (MMS) project.

Audio Classification

Transformers Supports Multiple Languages

Wav2vec2 Large Robust 24 Ft Age Gender

This model takes raw audio signals as input and outputs age predictions and gender probabilities (child/female/male), along with the pooled state of the last transformer layer.

Audio Classification

Wav2vec2 Lg Xlsr En Speech Emotion Recognition

A speech emotion recognition model fine-tuned on Wav2Vec 2.0, capable of identifying 8 English emotions with an accuracy of 82.23% on the RAVDESS dataset

Audio Classification

Wav2vec2 Base Superb Er

This is a speech emotion recognition model based on the Wav2Vec2 architecture, adapted from the S3PRL project, designed to identify emotional categories in speech.

Audio Classification

Transformers English

SER Odyssey Baseline WavLM Multi Attributes

A multi-attribute speech emotion recognition baseline model based on WavLM architecture, predicting arousal, dominance, and valence dimensions

Audio Classification

Transformers English

Wav2vec2 Large Robust 6 Ft Age Gender

This model, fine-tuned from Wav2Vec2-Large-Robust, can predict the speaker's age and gender from raw audio.

Audio Classification

MERT-v1-330M is an advanced music understanding model trained based on the MLM paradigm, with a parameter scale of 330M, supporting 24K Hz audio sample rate, and suitable for various music information retrieval tasks.

Audio Classification

Voice Gender Classifier

A pre-trained model based on the ECAPA-TDNN architecture for classifying gender from human speech

Audio Classification

Voice Safety Classifier

A voice content safety detection model based on WavLM base plus architecture, used to identify toxic content in voice chats

Audio Classification

Hubert Base Superb Ks

This model is a keyword spotting model based on the Hubert architecture, designed to classify speech segments into predefined keyword sets.

Audio Classification

Transformers English

Ast Finetuned Speech Commands V2

An audio spectrogram transformer model fine-tuned on the Speech Commands v2 dataset for audio classification tasks, achieving 98.12% accuracy.

Audio Classification

Hubert Large Superb Er

An emotion recognition model based on Hubert-Large pre-trained model for predicting emotion categories in speech

Audio Classification

Transformers English

Voxlingua107 Epaca Tdnn

ECAPA-TDNN architecture spoken language identification model trained on the VoxLingua107 dataset, supporting recognition of 107 languages

Audio Classification Other

AST VoxCelebSpoof Synthetic Voice Detection

A synthetic speech detection model fine-tuned based on MIT/ast-finetuned-audioset-10-10-0.4593, demonstrating outstanding performance on the VoxCelebSpoof dataset

Audio Classification

Transformers English

Hubert Base Superb Er

This model is an emotion recognition model based on the Hubert-Base architecture, trained on the SUPERB emotion recognition task for speech emotion classification

Audio Classification

Transformers English

Speech Emotion Recognition With Openai Whisper Large V3

This project utilizes the Whisper model for speech emotion recognition, capable of classifying audio into different emotional categories such as happiness, sadness, and surprise.

Audio Classification

Wav2vec2 Xlsr Persian Speech Emotion Recognition

This is a Persian speech emotion recognition model based on the Wav2Vec 2.0 architecture, capable of identifying six basic emotional states.

Audio Classification

Transformers Other

Voice Safety Classifier V2

Multilingual voice toxicity detection model based on WavLM architecture, supporting 8 languages and identifying 6 types of violations

Audio Classification

Transformers Supports Multiple Languages

Wav2vec Vm Finetune

A voicemail detection model fine-tuned based on facebook/wav2vec2-xls-r-300m, specifically designed to distinguish between voicemail greetings and live human responses.

Audio Classification

Transformers English

Wav2vecbert2 Filledpause

A model for classifying 20-millisecond audio frames to detect filler pauses (e.g., 'eee', 'errm', etc.)

Audio Classification Other

This is a speech language identification model based on the Wav2Vec2 architecture, capable of recognizing 4017 languages, and is part of Facebook's Massively Multilingual Speech project.

Audio Classification

Transformers Supports Multiple Languages

Wav2vec2 Base Lang Id

A speech language identification model fine-tuned on the common_language dataset based on facebook/wav2vec2-base

Audio Classification

Music Genres Classification

This model is trained on facebook/wav2vec2-base-960h for music genre classification tasks, supporting recognition of 10 genres.

Audio Classification

Ssast Small Patch Audioset 16 16

Audio classification model pre-trained on AudioSet and Librispeech, using vision transformer architecture to process audio spectrograms

Audio Classification

Accent Id Commonaccent Ecapa

This model uses the ECAPA-TDNN architecture to classify 16 accents in English speech and is trained on the CommonAccent dataset, achieving a test accuracy of 87%.

Audio Classification English

Deepfake Audio Detection V2

A Deepfake audio detection model fine-tuned on audio folder datasets, achieving 99.73% accuracy

Audio Classification

Wav2vec2 Base Audioset

Audio representation learning model based on HuBERT architecture, pre-trained on the complete AudioSet dataset

Audio Classification

Musical Instrument Detection

A foundational speech recognition model based on the wav2vec 2.0 architecture, pre-trained on 960 hours of English speech data

Audio Classification

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase